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刘 振 鹏 **， 可 梦 洁 * 张 彬 % 董 静 *， 徐 建 民 * 


(河北 大 学 a. 电子 信息 工程 学 院 ; b. 信息 技术 中 心 ; c. 网 络 空间 安全 与 计算 机 学 院 , 河北 保定 071002) 


二 


摘 要 : 针对 传统 实体 对 齐 的 方法 无 法 体现 潜在 语义 信息 的 问题 , 对 其 进行 优化 , 使 实体 对 齐 效果 更 加 显著 。 使 用 LDA 
模型 对 网 络 百 科 非 结构 化 数据 进行 建 模 , 采用 改进 的 BP 算法 求解 LDA 模型 中 的 隐藏 参数 ， 进 而 生成 实体 特征 向 量 进 
行 相似 度 计 算 ， 通 过 计算 结果 判断 是 否 可 以 对 齐 。 实 验 结果 表明 ， 通 过 与 三 种 传统 的 算法 进行 比较 ， 所 提 算 法 在 准确 
率 、 召 回 率 和 综合 指标 上 值 三 个 评价 指标 均 有 所 提高 。 针 对 具有 描述 信息 的 网 络 百 科 实体 ， 该 算法 可 以 有 效 提 升 实体 
对 齐 效果 。 
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Entity alignment for encyclopedia knowledge base based on topic model 
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Abstract: Aiming at the problem that traditional entity alignment method could not reflect latent semantic information, it was 
optimized, making the effect of entity alignment more significant. Using the LDA model to model the unstructured data of the 
network encyclopedia, and with the improved BP algorithm to solve the hidden parameters of LDA model, in turn, generate 
entity eigenvectors to perform similarity calculation, finally, through calculation results can determine whether alignment. The 
results showed that, through comparing with three kinds of traditional algorithms, the algorithm which proposed in this paper 
have increased the three evaluation index that above Precision, Recall and F-score. Aiming at the network encyclopedia entity 


with description information, the algorithm can effectively improve the entity alignment effect. 
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0 引言 alignment)， 也 可 被 称 为 是 实体 链接 外 ,其 目的 是 判断 不 同 数据 
源 n9 中 的 两 个 实体 是 否 指向 现实 世界 中 的 同一 对 象 。 

近 十 几 年 ， 互 联网 产生 了 越 来 越 多 的 大 规模 知识 库 ， 例 如 前 ， 实 体 对 齐 方 法 的 研究 主要 有 基于 网 络 本 体 语义 0 

国外 具有 代表 性 的 知识 库 FreeBasell，DBpedia， 维 基 百 科 本 (Web ontologylanguage，OWL ) ， 基 于 规则 分 析 ， 基 于 相似 度 

体 知识 库 (yet another great ontology,YAGOB]) 和 Omega 中等 ; 理论 判定 三 种 。 针 对 中 文 网 络 百科 ， 它 本 身 不 具有 完备 的 本 体 

在 我 国 ， 著 名 知识 库 有 百度 知心 ， 搜 狗 知 立方 及 清华 大 学 双语 言 息 ， 因 此 ， 它 很 难 通 过 OWL 语义 进行 对 齐 ; 并 且 网 络 百科 


亚 


0 


知识 库 XLore5。 知 识 库 在 知识 图 谱 中 ,信息 融合 及 智能 语义 问 ” 当中 包含 的 实体 领域 众多 ， 若 通过 建立 规则 进行 对 齐 ， 不 同 的 
答 中 等 自然 语言 处 理 和 人 工 智 能 领域 均 有 重要 的 意义 。 中 文 知 。 领域 要 建立 不 同 的 规则 ， 这 类 方法 又 不 有 具有 通用 性 ， 使 用 比较 
识 库 构 建 中 ， 可 用 的 完备 数据 资源 比较 少 ， 在 获取 完整 的 知识 。 广泛 的 是 基于 相似 度 理论 进行 判定 ， 通 常 ， 这 一 类 的 方法 通过 
的 过 程 中 ， 需 要 将 不 同 知识 库 里 的 知识 数据 进行 集成 、 整 合 和 对 属性 值 赋予 权重 03， 然 后 通过 计算 不 同 实体 的 同一 属性 的 相 
复 用 ， 实 体 对 齐 作为 知识 融合 的 重要 方法 对 知识 库 的 构建 和 扩 ” ” 似 度 进行 实体 对 齐 ， 近 几 年 由 于 主题 模型 的 盛行 也 出 现 了 应 用 
充 产生 着 重要 的 作用 。 主题 模型 对 实体 的 描述 性 文本 进行 建 模 ， 之 后 运用 相似 度 进行 

实体 名 〈entity) 是 指 客观 存在 并 且 可 以 进行 区 别 的 事物 ， 实体 对 齐 的 方法 。 文 献 [13,14] 利 用 RDFS 词 表 对 属性 进行 规范 
包括 具体 的 人 , 事 , 物 , 抽象 的 概念 或 关系 等 。 实体 对 齐 (entity ”化 之 后 ， 利 用 属性 相似 度 和 描述 性 文本 的 主题 特征 相似 度 进行 
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十 
结合 , 5 


实现 了 实体 对 齐 ; 文献 [15] 提 出 一 种 半 监 督 协 同 训 练 的 实 
体 对 齐 方法 ， 结 合 实体 名 称 、 属 性 、 描 述 文本 及 其 中 的 时 间 、 


数值 等 关键 的 信息 进行 实体 对 齐 ; 文献 [16] 提 出 一 种 独立 于 本 


度 百科 和 互动 百科 这 两 个 国 
文 名 ”这 一 属性 项 目 
动 百 科 采 用 的 则 是 “英文 名 ” 
人 物 的 “别名 ”这 一 属性 项 ， 百 度 百科 采用 的 的 是 


体 模式 的 基于 属性 语义 特征 


E 的 实体 对 齐 方 法 ， 采 用 的 仍然 是 实 


品 


体 的 属性 信息 。 然 而 这 样 的 方法 对 于 匮乏 属性 信息 的 实体 则 不 
， 尤 其 对 于 中 文 网 络 百科 ， 不 同 网 络 百科 的 相同 属性 的 名 
甚至 属性 信息 出 现 了 很 多 不 一 致 的 情况 ， 例 如 众所周知 的 百 


刘 振 胸 ， 等 higaX RS 


方 框 代表 重复 ， 


均 为 0.1; 


示 文档 篇 数 。 轿 


型 进行 介绍 ， 也 就 是 证 
该 模型 将 文本 生 


内 规模 较 大 的 网 络 百 科 网 站 , 在 “ 英 
Ph， 百度 百科 采用 的 是 “外 文 名 ”， 而 互 


而 互动 百科 采用 的 是 


准 


于 中 文 网 络 百科 
良 效果 ， 


方 框 里 的 下 机 
两 个 分 布 O, 和 的 


;而 对 于 歌手 “张杰 ”这 一 公众 
C6 杰 哥 9 


E 验 参数 ， 在 
w, 表 示 文 档 中 的 某 个 单 
w, 的 主题 , K 表示 主题 的 总 个 数 , NN 表示 文档 
1 中 LDA 图 模型 是 从 文档 
单词 w, 被 选择 出 来 和 
成 的 步骤 简化 为 概率 采 村 
表示 为 多 个 主题 的 概率 混合 即 “ 文 档 一 
主题 又 可 以 由 不 同 的 


词 构成 , 即 “ 


A 


是 重复 的 次 数 。C 和 分 别 表示 
实验 当中 和 有 取 值 
词 ，Z 表示 文档 中 某 个 单词 
中 词 的 个 数 , D 表 
生成 的 角度 对 该 模 


的 过 程 。 


的 步骤 ， 将 文档 
主题 ”概率 矩阵 局 ， 而 
主题 一 单词 ”概率 矩阵 作 ， 


因此 要 生成 一 篇 文章 ， 先 是 对 主题 进行 采样 ， 从 而 得 到 了 该 主 


题 下 的 单词 集合 ， 进 行 迭 


< 张 小 杰 ”， 这 种 现象 对 于 采用 属性 信息 


进行 实体 对 齐 无 疑 是 增加 了 一 定 的 难度 ， 在 这 个 过 程 中 首先 要 
考虑 的 就 是 对 于 属性 的 名 称 进行 统一 ， 若 无 法 保证 属性 对 齐 的 
确 率 ， 则 对 于 最 后 的 结果 有 很 大 的 影响 ， 并 且 通 过 研究 ， 对 


j 言 ， 属 性 信息 在 处 理 不 当 的 情况 下 会 产生 不 


并 且 加 大 了 实体 对 齐 的 工作 量 。 因 此 ， 百 科 知 识 库 中 


包含 的 大 量 


只 利 月 


实体 摘要 信息 和 描述 性 文本 可 以 被 有 效 利用 
日 实体 的 非 结构 化 文本 构造 


如 何 
出 可 以 有 效 的 进行 实体 对 齐 的 


实体 特征 是 本 文 所 面 对 的 问题 。 


模型 
络 百 


开导 


据 , 使 用 


为 了 有 效 的 利 / 


实体 非 结 构 化 文本 ， 本 文 提出 了 基于 主题 


的 百科 知识 库 实体 对 齐 算 法 ， 该 算法 利用 LDA 模型 对 网 


科 实 体 的 文本 信息 


乱 进 行 主题 建 模 ， 使 用 改进 的 BP 算法 求 
解 模型 中 的 隐藏 参数 , 进而 完成 实体 对 齐 任务 。 经 过 实验 证 明 ， 


所 提 方 法 能 够 有 效 的 提 


高 实体 对 齐 的 准确 率 ， 对 具有 


i$ 述 性 文 


本 的 实体 进行 实体 对 齐 有 很 好 的 通用 性 。 


本 文 主要 工作 如 


: a) 有 效 的 利用 百科 实体 的 非 结 构 化 数 


LDA 模型 得 到 文本 中 潜在 的 语义 信息 , 提出 一 种 广泛 


汇 


用 于 具备 描述 信息 上 


隐藏 参数 的 时 候 ， 提 


获取 百度 百科 
算法 进行 对 比 ， 


1 


1.1 


局 


和 中 文 维基 百科 数据 进行 实验 验证 ， 与 同类 相似 


的 百科 实体 对 齐 算法 ;b ) 在 推断 LDA 模型 
出 改进 的 BP 算法 对 模型 参数 进行 估计 ;c) 


LDA 模型 


对 算法 的 有 效 性 进行 分 析 。 
相 关 知 识 识 介 站 绍 


潜在 狄 利克 雷 分 配 07] (Latent Dirichlet Allocation, LDA) 


了 不 小 的 进展 ， 


代 抽 和 


针对 本 文 所 涉及 的 算法 ， 


个 单词 ， 从 而 得 到 完整 的 文 


出 现 的 两 个 参数 0, 


当 


和 人 进行 参数 估计 ， 从 而 进行 实 


估计 方法 有 三 种 ， 变 分 贝 叶 
布 斯 采样 (Gibbs Sampling, GS ) 和 
BP) ， 虽 然 变 分 贝 叶 斯 算法 和 记 
基于 BP 算法 在 学 习 速 度 采 
很 强 的 竞争 力 ， 本 文 所 提 算 法 
(belief propagation，BP) 算法 


1.2 置信 传播 算法 


BP 算法 是 


递 算法 , 是 一 种 有 效 求解 条 
2011 年 将 该 算法 应 月 
办 的 值 ， 并 取得 了 很 大 的 进展 。 


BP 算法 的 LDA 


前 主流 的 参数 


一 


斯 (variational Bayesian，VB ) ,十 
置信 传播 (Belief Propagation,， 
E 近 似 推 理 方面 取得 


[准确 率 的 方面 均 有 
的 神经 网 络 置信 传播 


Pearl08 提 昌 


妹子 图 。 


对 其 进行 优化 。 


E 断 图 模型 参数 的 信息 传 
F 边 缘 概率 的 方法 ，Zeng 等 人 09] 在 
ne 


量 ， 即 求解 0, 和 


Zeng Jia 提出 的 基于 


它 与 图 1 的 LDA 图 模型 是 一 个 模型 
档 生 成 部 分 ， 图 2 则 是 侧重 于 
凸显 了 主题 标签 求解 的 数学 关系 。 


Blei 等 人 在 2003 年 提出 的 一 种 三 层 贝 叶 斯 概率 模型 ， 它 


全 


包括 单 


到 的 变量 》 


词 、 主 题 、 文 档 三 层 。 图 1 是 LDA 图 模型 。 


Car 


DD —@, 


图 1 LDA 图 模型 


图 1 中 ， 白 色 几 


圈 表 示 隐 藏 变量 ， 灰 色 圆 圈 表 示 可 以 观测 


eu 


圈 之 间 的 箭头 表示 两 个 变量 之 间 的 概率 是 相关 的 ， 


需要 求解 的 隐藏 变量 90, 和 6p,，Q 和 


a 到 
AQ 


,a) 


图 2 基于 BP 算法 的 LDA 因子 图 


， 只 是 图 1 侧重 于 文 


FE 题 标签 之 间 的 关系 ， 并 且 
ph， 灰色 的 方 框 表示 
胃 然 是 表示 0 和 从 的 先 


验 参 数 ， 其 他 的 则 是 表示 主题 标签 ，0, 连接 Zy 和 2 wy，Zwa 


表示 文本 4d 中 单词 w 的 


w 之 外 的 其 他 单 
中 的 所 有 单词 的 主题 标签 
上 ,2Z,-4 指 除了 当前 文本 4d 之 外 的 所 有 其 他 文本 中 单词 w 的 主 
题 标签 , 那么 ,连接 的 就 是 全 部 文本 中 


E 题 标签 ， 
词 的 主题 标签 ， 


Za 表 示 文 本 d 中 除了 单词 
也 就 是 说 0, 连接 着 同一 文本 d 
， 而 从 连接 的 是 Z， 4 和 2， -dd » Za 如 


E 词 w 的 主题 标签 。 图 


2 中 第 六 


表示 的 是 


言 恩 的 传递 方向 ， 箭 头 上 承载 的 便 是 主题 所 


包含 的 信息 ， 即 Wozj ， Hzych，H(Z-_wa) 和 WU(Z,-a) 所 表示 


的 是 该 模型 的 主题 


息 
忆 。 


mk 
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使 用 BP 算法 对 LDA 进行 参数 估计 时 ， 对 Zs 有 影响 的 是 


与 其 相连 的 所 有 的 主题 标签 与 参数 ， 其 主题 更 新 公式 为 


HZ a = +a LA 4 =R+B 
Za = ke x u 
Be 
其 中 : KU(Z_ ,ys =) 表示 的 是 文档 4 中 除了 单词 w 以 外 的 其 余 所 


为 新 的 实体 保存 在 实体 库 


2.2 改进 的 BP 算法 


传统 的 LDA 模型 是 基于 词 袋 模型 ， 
就 不 被 考虑 ， 这 样 的 做 法 使 模型 变 得 
供 了 机 会 0。.BP 算法 在 对 LDA 模型 


有 单词 的 主题 概率 分 布 ， 而 ALZ，, = 月 表 示 的 是 除了 文档 4 草 
余 的 所 有 文档 中 单词 w 的 主题 概率 分 布 ; 


AH(Z_ wu =K)= > WX wal(Z_ wa =K) (2) 
A(Z, = 局 = > a Xa (Za =K) (3) 
其 中 : Xj 表示 的 是 观测 值 。 在 式 (2) 中 Xj 表示 文档 4 中 除 


了 单词 w 以 外 其 余 全 部 单词 的 观测 值 ， 


式 (3) 中 心 表示 的 


是 除了 文档 d 其 余 的 所 有 文档 中 单词 w 的 观测 值 。 


其 中 , 信息 更 新 被 局 部 归 一 化 , 即 4H(Zs = 如 =1,， 其 竺 
估计 参数 0, 和: 
HZ = +o 
0,(k)= 
(Kk) >》 [AZ = 各 +o] (4) 
HZ,.=R+B 
(Kk) = | 
TA + (5) 


其 中 : AL = 局 表示 文档 4 中 所 有 单词 的 主题 概率 分 布 ; 
A(Z,. = 局 表示 所 有 文档 中 单词 w 的 主题 概率 分 布 。 


2 ”算法 实现 
2.1 算法 概述 


本 文 核心 任务 是 针对 具有 相同 条 目 名 称 的 百科 实体 ， 计 算 
它们 之 间 的 潜在 语义 的 相似 度 ， 对 实体 进行 对 齐 。 具 体 算法 过 
程 如 图 3 所 示 。 


数据 获取 及 | ! 
数据 预 处 理 ! 


由 特征 生成 及 |、| 评价 相似 度 
| 相似 度 计算 「 | 计算 结果 


3 ”基于 主题 模型 的 百科 知识 库 实 体 对 齐 算法 
图 3 可 知 ， 该 算法 包含 四 个 模块 ， 第 一 个 模块 是 数据 获 
取 和 数据 预 处 理 ， 在 这 一 部 分 ， 本 文 获取 了 维基 百科 中 文 版 的 
语 料 和 部 分 百度 百科 的 语 料 ， 这 些 语 料 当 中 包括 百科 实体 的 条 
目 名 称 和 相关 的 描述 信息 ， 数 据 获 取 之 后 ， 对 其 进行 分 词 和 去 
司 处 理 ; 之 后 对 处 理 好 的 文本 使 用 LDA 模型 进行 主题 建 
然后 ,使 用 改进 的 BP 算法 对 得 到 的 LDA 模型 进行 参数 估 
计 , 这 一 部 分 是 该 算法 的 核心 步骤 , 将 在 2.2 进行 详细 的 介绍 ; 

再 次 是 特征 生成 和 相似 度 计算 模块 ， 特 征 生成 过 程 是 对 得 到 的 
“文档 一 主题 ”和 矩阵 0 进行 处 理 以 得 到 实体 的 特征 向 量 ， 而 相 
似 度 计算 则 采用 余弦 相似 度 进 行 计算 ， 这 一 部 分 将 在 2.3 进行 
介绍 ， 最 后 是 评价 相似 度 计算 结果 ， 计 算 两 个 实体 之 间 的 相似 
度 大 于 冰 值 中 时 , 则 判定 为 可 对 齐 , 否则 , 待 对 齐 实体 NE 则 作 


速度 快 的 优势 , 但 是 
要 是 针对 中 文 网 络 百科 ， 而 中 文 当中 


全 


据 上 下 文 


E 解 的 ， 由 此 ， 


进 的 BP 算法 


妹子 图 。 
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(i 


实 人 


于 LDA 模型 本 身 


的 


于 是 和 


词 之 间 的 有 


Fh， 并 添加 到 候选 实体 的 义 项 当中 。 


项 序 


简单 ， 但 是 也 为 其 改进 提 


进行 参数 推 


断 时 


了 精度 高 、 
的 缺陷 , 以 及 该 算法 3 
单词 词义 大 概率 是 要 


Fi [MT 


提出 一 种 改进 的 BP 算法 。 图 4 是 改 


图 4 改进 的 BP 算法 因子 图 
在 改进 的 BP 算法 当中 ， 新 添加 了 一 项 


上 下 文 (用 


时 候 ， 将 这 个 单词 作为 


一 个 单词 集 窗口 ， 


Zi 表示 在 文档 d 


以 这 个 窗 


Ph 第 i 个 单词 w 


d 中 ,除了 单词 外 的 上 下 文 其 他 单词 


文档 4 中 ， 除 了 上 下 文 外 其 他 的 和 
，0, 和 9, 表示 的 内 容 与 BP 算法 
该 算法 对 了 


F BP 算法 的 优化 首 # 


考虑 


信息 的 缺陷 ， 加 入 上 下 文 之 


展 和 若干 个 让 


内 容 ， 即 单词 w 的 
字母 c 来 表示 ) ， 也 就 是 在 计算 单词 的 主题 分 布 的 
P 心 ， 在 它 的 前 后 扩 
为 短文 本 来 计算 每 个 
分 布 , 最 后 经 过 和 迭代, 使 每 个 单词 的 主题 分 布 达 到 收敛 。 其 中 ， 
的 主题 标签 ; Zc4 表示 在 文档 
的 主题 标签 ， 
和 词 W 的 主题 标签 此 外 C ， 
致 。 
是 将 上 下 文 的 概念 引入 本 
算法 ， 这 一 点 主要 是 针对 LDA 模型 当中 单词 之 间 的 ) 
且 BP 算法 为 同一 文档 中 的 相同 


和 词 形成 
和 词 的 主题 


Za 表示 


项 序 不 被 


单词 分 布 了 相同 的 语义 


会 被 打 乱 ， 


后 ， 同 一 篇 


且 针 对 中 文 的 特点 理解 一 


去 理解 , 则 后 


使 单词 的 语义 更 加 贴近 其 
这 一 项 改 为 Ze 则 是 因 


成 混淆 ， 因 此 ， 本 文采 


篇 文档 中 相同 


真实 语 境 。 划 


档 中 相同 单词 的 主题 信息 


加 入 ， 则 会 对 本 篇 文档 的 主题 信息 


了 Zz， 等同 


的 相同 单词 的 信 


题 


由 该 算法 


因子 图 


使 文档 主题 更 加 


可 以 看 出 ， 文 档 d 中 第 i 


文档 中 的 单词 ) 


个 单词 要 结合 


的 单词 则 会 为 其 分 布 不 同 
次 ， 本 次 改进 
为 本 文 的 目的 是 通过 比较 两 个 具 
同名 称 的 百科 实体 的 描述 信息 来 进行 实体 对 齐 ， 若 将 其 他 的 


质 序 则 不 
其 上 下 文 
的 主题 ， 
还 将 Cs 


了 相 


明确 。 


于 只 采用 


同一 篇 文档 中 


滞 渤 


个 单词 w 的 主 


以 下 两 个 部 分 决定 ， 


是 上 下 文 窗 


中 不 同 


响 ， 二 是 同一 文档 中 非 上 下 文 窗口 中 相 
此 得 到 主题 更 新 公式 为 


AH(Z; 


该 公式 中 AZ = 及 表示 的 是 上 下 文中 
单词 的 主题 信息 ， (Cs = 及 表示 同一 文档 @ 中 除了 上 下 文 以 


外 ， 单 词 w 的 主题 


na =k) < 


AZ =R)+o 


司 单词 


词 的 主题 影 


FE 题 的 影响 。 


LH(Z".4 = 


+B 


信息 。 


FZ Oral Sl", +A 
除了 单词 Ww 外 其 他 


(6) 
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最 后 得 到 模型 的 参数 为 


UZ =D+a 
< 7 
TAZ = +a 07 
Z” ==)+ 
站 HZ =P)+B (8) 


by 
根据 以 上 的 因子 图 和 主题 更 新 公式 ， 使 用 改进 的 BP 算法 
估计 LDA 模型 的 隐藏 参数 的 训练 过 程 为 ; 
a) 随 机 为 每 个 单词 初始 化 一 个 主题 ; 


aXiv 合 作 其 mm 
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刘 振 有 网， 等 : 基于 主题 模型 的 百科 知识 库 实 体 到 


维基 百科 的 语料库 在 本 实验 中 作为 实体 库存 在 。 而 百度 百科 的 
语 料 则 需要 进行 候 取 ， 本 文 在 百度 百科 网 站 息 取 了 人 物 类 ， 社 
会 类 ， 科 学 类 和 艺术 类 各 200 条 ， 共 800 条 百度 百科 的 词 条 信 
息 ， 其 中 包括 词 条 名 称 和 相应 的 描述 信息 ， 作 为 待 对齐 实 体 进 
行 实验 。 

获取 到 实验 数据 之 后 ， 进 行 数据 预 处 理 ， 本 文 利用 Python 
语言 进行 实验 ， 在 数据 预 处 理 部 分 使 用 Python 自 带 的 jieba 分 
词 进 行 分 词 处 理 ， 使 用 “哈工大 停 用 词 表 ”进行 去 除 停 用 词 。 


bp) 遍历 整个 语料库 ， 使 主题 更 新 式 (6) 更 新 每 个 单词 的 主 
题 分 布 ; 

c) 不 断 欠 代 上 述 过 程 直至 收敛 ; 

中) 使 用 式 (7) (8) 求 出 参数 。 
2.3 ”特征 向 量 生成 和 相似 度 计算 
在 使 用 LDA 进行 主题 建 模 时 , 文本 的 主题 是 隐藏 变量 , 也 
就 是 9, 和 ,的 值 是 未 知 的， 本 文 使 用 改进 的 BP 算法 对 模型 的 
未 知 参数 进行 估计 。 

1) 计算 “文档 一 主题 ”概率 矩阵 0 

通过 对 实体 的 描述 信息 进行 主题 建 模 ， 使 用 改进 的 BP 算 


法 对 模型 的 隐藏 变量 进行 估计 得 到 “文档 一 主题 ”概率 矩阵 0 : 
[pi Pi “°° Pir 

0, = 2 9) 
LPn Pn2 读 拓 Pnx 


其 中 : Pp; 表示 第 j 个 主题 归 入 第 i 个 文档 的 概率 ; n 表示 文档 
集中 及 篇 文档 ，K 表 示 LDA 进行 建 模 时 生成 了 KK 个 主题 。 
2) 将 0, 按 行进 行 拆 分 生成 “文档 一 主题 ”向 量 
输入 的 文档 集合 D=(do,di,…,d,) 其 中 人 表示 待 对 齐 文 
本 ， 其 余 文 本 表示 实体 库 中 的 条 目 名 称 相同 的 文本 。 
其 中 : do=(PhPp Pix) ， di=(pa, Py Pa) ， 
d, = (pn, Pra,°**, Pn) 
3) 相似 度 计算 


将 do 与 其 余 的 “文档 一 主题 ”向 量 进行 余弦 相似 度 的 计算 


本 文 实验 所 用 数据 统计 如 表 1 所 示 。 
表 1 实体 对 齐 数据 统计 


分 类 百度 百科 实体 数 维基 百科 重 名 实体 数 ”可 对 齐 数 
人 物 200 3897 188 
社会 200 635 120 
科学 200 585 126 
艺术 200 1149 159 


表 1 概括 统计 了 本 文 实验 用 到 的 数据 量 ， 如 表 1 所 示 ， 本 
文 实验 在 百度 百科 网 站 从 人 物 、 社 会 、 科 学 和 艺术 四 类 条 目 分 
别 爬 取 了 200 条 百科 实体 ， 并 按照 条 目 名 称 进 行 抽取 ， 获 取 到 
在 维基 百科 中 的 同名 实体 ， 并 得 到 了 其 个 数 ， 与 此 同时 ， 经 过 
人 工 比 对 ， 还 得 到 了 可 对 齐 数 。 
3.2 评价 标准 
实验 的 评价 标准 从 准确 率 (precision, P), 召回 率 (recall， 
) 以 及 综合 指标 五 值 (F-score, FF) 5 三 项 来 进行 评价 , 其 中 ， 
a) 准 确 率 (P) ,表示 经 过 实体 对 齐 算 法 后 得 到 准确 对 齐 的 数 
量 和 参与 对 齐 的 实体 数 的 比率 
P=N./N, (GD 
b) 召 回 率 (R) ,表示 经 过 算法 之 后 准确 对 齐 的 数量 和 数据 集 
当中 可 对 齐 实体 的 比率 
R=N_/N, (12) 
c) 综 合 指标 F 值 (F) ,表示 权衡 准确 率 和 召回 率 的 综合 指 


标 
F=2:P:.R/(P+R) (13) 
其 中 : N, 表示 经 过 本 算法 之 后 准确 对 齐 的 实体 数 ，N, 表示 在 本 


以 求 出 两 篇 名 称 相同 的 文章 的 文档 相似 度 。 例如 由 do 代表 的 实 
体 e. 的 “文档 一 主题 ”向 量 和 另 一 实体 ee 的 主题 相似 度 为 


» do:d; 
Siml(le, ,8,)= 一 OO—— 
( a ,) la d, (10) 


其 中 :d; 表示 实体 wo 的 “文档 一 主题 ”向 量 。 


3 实验 


3.1 实验 数据 


次 实验 中 参与 对 齐 的 实体 数 ， N. 表示 数据 集 当 中 可 以 准确 对 
齐 的 实体 数 。 
3.3 参数 设 定 

本 文 的 参数 主要 有 三 个 , 首先 是 针对 LDA 模型 , 需要 设 定 
其 主题 个 数 K ;其 次 则 是 针对 改进 的 BP 算法 ， 即 在 求解 隐藏 
参数 过 程 中 需要 设 定 其 先 验 参数 Q& 和 ,经 过 对 先前 的 研究 成 
果 的 借鉴 以 及 进行 相应 的 实验 ， 本 文 把 先 验 参数 设 定 为 统一 的 
Q&=0.1 和 p=0.1， 由 于 他 们 并 不 是 本 文 的 研究 重点 ， 因 此 本 


为 了 验证 本 文 所 提 算 法 的 有 效 性 ， 本 文采 用 质量 相对 较 高 


的 中 文 语料库 维基 百科 中 文 版 和 百度 百科 的 文本 数据 进行 实验 。 


文 便 略 过 了 对 它 的 推理 过 程 ， 有 关于 先 验 参 数 的 设 定 ,Wallach 
等 人 后 提出 了 较 多 有 效 理论 ; 最 后 是 针对 本 文 所 提 基 于 LDA 的 


维基 百科 会 定时 将 自己 的 语料库 进行 更 新 并 打包 发 布 ， 本 文 下 
了 最 新 的 维基 语 料 进行 实验 ， 语 料 部 分 包括 词 条 名 称 和 相应 
描述 信息 。 由 于 维基 百科 语 料 较为 全 面 并 且 包 含 信息 很 多 ， 


到 


至 潍 


实体 对 齐 算 法 当中 的 闵 值 @ 的 设 定 , 这 一 参数 的 设 定 与 实体 对 
齐 的 结果 直接 相关 ， 因 此 会 对 这 一 部 分 作 详细 的 介绍 。 
1) 主 题 个 数 玉 对 实验 结果 影响 
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为 


时 
均 


均 不 是 很 高 ， 有 较 大 可 能 是 因为 这 三 类 实体 的 描述 信息 不 够 准 
， 并 且 数 据 显示 实体 库 中 这 三 类 实体 的 同名 实体 数目 较 大 ， 
从 而 增加 了 参与 对 齐 的 实体 数目 NN。 ， 而 科学 类 的 实体 | 


确 


为 了 避免 阔 值 对 实验 影响 , 在 这 一 部 分 实验 中 浆 值 O 设 定 


0.9 。 


误 壕 含有 洒 囊 


实验 结果 如 图 5 所 示 。 


一 一 一 人 一 人 一 一 


一 一 
一 


3 4 5 6 人 9 10 
主题 个 数 K 
一 一 准确 率 一 一 召回 率 一 一 [ 值 
(a) 人 物 类 
*- +* 一 和 一 4 一 PR * 二 


和 4 1 6 7 
主题 个 数 K 


一 6 一 准确 率 一 * 一 召回 率 一 上 一 F 值 


(b) 社会 类 


3 4 7 8 9 10 


5 6 
主题 个 数 K 


一 一 准确 率 一 一 召回 率 一 一 F 值 


(c) 科学 类 


= 


3 4 5 6 7 

主题 个 数 K 

一 一 准确 率 一 一 召回 率 一 上 一 [ 值 
(d) 艺术 类 

主题 个 数 天 对 实验 结果 的 影响 


图 5 


~ 


以 上 的 实验 结果 可 以 看 出 ， 当 主题 个 数 天 为 8 或 者 是 9 


实体 对 齐 的 准确 率 (P) ， 召 回 率 (R) 和 综合 指标 F 值 (F) 


图 5 可 知 ， 人 物 类 、 社 会 类 和 艺术 类 的 实体 对 齐 准确 率 


数 


目 NA, 较 少 ， 


于 其 


当 述 信息 较为 严 说、 清晰， 其 准确 率 相 对 来 说 比较 高 ， 
专 有 名 词 较 多 ， 


不 很 容易 出 现 同 名 实体 ， 


参与 对 齐 的 实体 


2) 阔 值 中 对 实验 结果 的 影响 


且 其 


寻 此 同样 的 主题 个 数 的 条 件 下 , 其 准确 率 较 高 。 


上 一 次 实验 可 知 主题 个 数 为 8 或 9 时 各 项 指标 最 优 ， 在 
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时 
刘 振 有 网， 等 : UM 齐 


以 下 实验 中 ， 主 题 个 数 K 设 定 为 9。 实 验 结果 如 图 6 所 示 。 


0.85 0.9 0.95 0.96 0.97 0.98 0.99 


疗 值 w 


一 一 准确 率 一 * 一 召回 率 一 * 一 F 值 


一 一 准确 率 一 一 召回 率 一 * 一 F 值 


图 6 


闵 值 O 对 实验 结 


(c) 科学 类 


0.9 0.95 0.96 0.97 0.98 0.99 


阔 值 w 


(d) 艺术 类 
的 影响 


图 6 可 知 ， 随 着 闵 值 的 增加 ， 这 四 类 数据 的 准确 率 都 在 


不 断 地 增加 ， 然 而 召回 率 却 在 不 断 地 降低 ， 这 是 由 于 在 不 断 增 
加 闵 值 的 过 程 中 ， 经 过 本 算法 之 后 正确 对 齐 的 实体 数 入, 不 断 


减 小 , 而 上 值 则 是 先 随 着 阔 值 的 增加 而 增长 , 其 大 约 在 =0.96 
时 取得 最 大 值 ， 由 此 可 以 得 出 当 阔 值 取 0.96 时 ， 该 算法 对 齐 效 


果 最 优 。 


3.4 与 其 他 算法 进行 比较 
为 了 证 明 所 提 算 法 的 确实 有 效 ， 将 利用 同样 的 文本 数据 信 
息 与 其 他 的 算法 进行 实验 效果 比 对 。 分 别 是 在 本 文 所 提 框 架 中 


主题 建 模 部 分 改 为 TF-IDF、 利 用 
断 LDA 模型 隐藏 参数 这 三 种 算法 进 
实验 结果 如 


参数 和 利用 Gibbs 算法 
行 对 比 实验 。 


BP 算法 估计 LDA 模型 隐藏 


表 2 所 示 。 
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表 2 与 其 他 算法 比较 结 


a 人 物 类 社会 类 艺术 类 科学 类 
算法 
P R F P R F P R F P R F 
本 算法 0.620 0.867 0.723 0.641 0.964 0.770 0.399 0.818 0.536 0.865 0.612 0.767 
TF-IDF 0.615 0.887 0.726 0.752 0.921 0.828 0.321 0.931 0.477 0.883 0.765 0.820 
LDA+BP 0.435 0.675 0.529 0.623 0.881 0.730 0.353 0.803 0.490 0.752 0.612 0.675 
LDA+Gibbs 0.615 0.830 0.707 0.633 0.962 0.764 0.400 0.753 0.522 0.842 0.771 0.805 


表 2 可 以 看 出 ， 对 于 相同 的 文本 数据 ， 并 且 实 验 参 数 设 
相同 的 情况 下 ,各 算法 实体 对 齐 的 效果 不 同 , 并 有 较 大 差异 。 
首先 ， 就 本 算法 来 说 ， 其 效果 虽然 和 预想 的 结果 差异 较 大 ， 但 
是 算法 的 准确 率 确实 是 高 于 LDA+BP 的 , 由 此 可 以 证 明 本 算法 
对 于 BP 算法 的 改进 确实 是 有 效 的 。 其 次 ，TF-IDF 的 准确 率 较 
本 算法 来 说 略 低 ， 大 概率 是 因为 TF-IDF 仅仅 是 考虑 了 词 项 的 
词 频 信 息 而 没有 考虑 文档 的 潜在 语义 ,再 次 , 由 实验 结果 来 看 ， 
LDA+GibbsP3] 的 各 项 指标 均 与 本 算法 的 结果 大 致 相同 ， 这 为 本 
算法 的 再 次 优化 提供 了 新 的 研究 方向 。 最 后 ， 由 实验 数据 可 以 
看 出 ， 本 算法 的 各 项 性 能 指标 相对 于 原始 算法 有 较 大 的 提高 ， 
本 算法 对 于 解决 百科 知识 库 实体 对 齐 的 问题 有 较 好 的 效果 。 


.于 


Fw 


4 ”结束 语 


近年 来 ， 互 联网 规模 的 增长 导致 网 络 上 知识 信息 大 量 的 旬 
知识 库 作 为 知识 信息 的 载体 在 人 们 的 学 习 中 起 到 了 重要 的 


片 
uy 


和 。 然 而 单一 的 知识 库 的 知识 覆盖 率 较 低 ， 就 需要 通过 知识 
融合 的 方式 将 各 类 不 同 的 知识 库 进行 整合 ， 本 文 所 提出 的 基于 
LDA 的 百科 知识 库 实体 对 齐 算 法 能 够 有 效 的 解决 知识 库 实体 
对 齐 问 题 ， 可 以 将 其 实际 应 用 于 百科 知识 库 实体 对 齐 工 作 中 。 
在 之 后 的 工作 中 ， 将 考虑 使 用 更 有 效 的 对 LDA 模型 进行 
参数 估计 的 方法 ， 例 如 Gibbs 抽样 ， 以 及 发 掘 更 多 的 主题 模型 
来 提高 文本 相似 度 ， 使 知识 库 实 体 对 齐 的 效果 更 加 完善 。 
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